24 research outputs found

    Projection predictive model selection for Gaussian processes

    Full text link
    We propose a new method for simplification of Gaussian process (GP) models by projecting the information contained in the full encompassing model and selecting a reduced number of variables based on their predictive relevance. Our results on synthetic and real world datasets show that the proposed method improves the assessment of variable relevance compared to the automatic relevance determination (ARD) via the length-scale parameters. We expect the method to be useful for improving explainability of the models, reducing the future measurement costs and reducing the computation time for making new predictions.Comment: A few minor changes in tex

    Bayesilaisten prediktiivisten muuttujavalintamenetelmien vertailu

    Get PDF
    To date, several methods for Bayesian model selection have been proposed. Although there are many studies discussing the theoretical properties of these methods for model assessment, an extensive quantitative comparison between the methods for model selection for finite data seems to be lacking. This thesis reviews the most commonly used methods in the literature and compares their performance in practical variable selection problems, especially in situations where the data is scarce. The study also discusses the selection induced bias in detail and underlines its relevance for variable selection. Although the focus of the study is on variable selection, the presented ideas are generalizable to other model selection problems as well. The numerical results consist of simulated experiments and one real world problem. The results suggest that even though there are nearly unbiased methods for assessing the performance of a given model, the high variance in the performance estimation may lead to considerable selection induced bias and selection of an overfitted model. The results also suggest that the reference predictive and projection methods are least sensitive to the selection induced bias and are therefore more robust for searching promising models than the alternative methods, such as cross validation and information criteria. However, due to the selection bias, also for these methods the estimated divergence between the reference and candidate models may be an unreliable indicator of the performance of the selected models. For this reason, the performance estimation of the found models should be done for example using cross validation outside the selection process.Kirjallisuudessa on esitetty useita erilaisia menetelmiä bayesilaiseen mallin valintaan. Vaikka näiden menetelmien teoreettisia ominaisuuksia erityisesti mallin suorituskyvyn mittaamiseen on tutkittu runsaasti, kattavaa tutkimusta eri menetelmien eroista mallin valintaan äärelliselle aineistolle ei näytä olevan tehty. Tässä työssä käsitellään yleisimmin käytettyjä mallinvalintamenetelmiä ja vertaillaan näiden käyttäytymistä käytännön muuttujavalintaongelmissa, erityisesti tilanteissa joissa dataa on niukasti. Työn tarkoituksena on käsitellä myös valintaharhaksi kutsuttua ilmiötä ja korostaa sen merkitystä muuttujavalintaongelmissa. Vaikka työ käsittelee pääosin muuttujavalintaa, työssä esitetyt johtopäätökset ovat yleistettävissä myös muihin mallinvalintaongelmiin. Numeeriset esimerkit koostuvat simuloiduista testeistä sekä yhdestä reaalimaailman ongelmasta. Tulosten perusteella näyttää siltä, että vaikka yksittäisten mallien suorituskykyä voidaan arvioida harhattomasti, valintaharha voi vaikeuttaa mallinvalintaa huomattavasti ja johtaa ylisovittuneen mallin valintaan. Näyttää myös siltä, että referenssiprediktiiviset ja projektiomenetelmät ovat vähiten herkkiä valinnan aiheuttamalle harhalle ja kykenevät näin ollen löytämään parempia malleja kuin vaihtoehtoiset menetelmät kuten ristiinvalidointi ja informaatiokriteerit. Valintaharhasta johtuen kuitenkin myös näille menetelmille estimoitu eroavuus referenssimallin ja kandidaattimallien välillä voi antaa epäluotettavan kuvan valittujen mallien suorituskyvystä. Tästä syystä lopullinen valittujen mallien suorituskyvyn arviointi tulisi tehdä käyttäen esimerkiksi valintaprosessin ulkopuolista ristiinvalidointia

    Predicting spatio-temporal distributions of migratory populations using Gaussian process modelling

    Get PDF
    1. Knowledge concerning spatio-temporal distributions of populations is a prerequisite for successful conservation and management of migratory animals. Achieving cost-effective monitoring of large-scale movements is often difficult due to lack of effective and inexpensive methods.2. Taiga bean goose Anser fabalis fabalis and tundra bean goose A. f. rossicus offer an excellent example of a challenging management situation with harvested migratory populations. The subspecies have different conservation statuses and population trends. However, their distribution overlaps during migration to anunknown extent, which, together with their similar appearance, has created a conservation–management dilemma.3. Gaussian process (GP) models are widely adopted in the field of statistics and machine learning, but have seldom been applied in ecology so far. We introduce the R package gplite f or G P m odelling and use it in our case study together with birdwatcher observation data to study spatio-temporal differences between bean goose subspecies during migration in Finland in 2011–2019.4. We demonstrate that GP modelling offers a flexible and effective tool for analysing heterogeneous data collected by citizens. The analysis reveals spatial and temporal distribution differences between the two bean goose subspecies in Finland. Taiga bean goose migrates through the entire country, whereas tundra bean goose occurs only in a small area in south-eastern Finland and migrates later than taiga bean goose.5. Synthesis and applications. Within the studied bean goose populations, harvest can be targeted at abundant tundra bean goose by restricting hunting to south-eastern Finland and to the end of the migration period. In general, our approach combining citizen science data with GP modelling can be applied to study spatio-temporal distributions of various populations and thus help in solving challenging management situations. The introduced R package gplite can be applied not only to ecological modelling, but to a wide range of analyses in other fields of science.</p

    Proceedings of the 10th International

    Get PDF
    ABSTRACT Intensive Programs (IP) have been organized by four European partner universities. The main idea is to gather approximately 40 students and 15 teachers together for three weeks to conceive, design, implement, and operate embedded system prototypes. Self-evaluation is an integrated part of the IP. The results of the evaluations are used to improve the concept, content, and practical arrangements for the next IP. The same partner network has organized similar intensive projects with different topics, but using the same internal evaluation method. We can recognize issues which make the IP successful and are common to the intensive project concept, independent of the topic. Based on the evaluation material, we will make some recommendations that can help organize similar intensive projects in the future

    Bayesilainen ennustava päättely ja piirrevalinta korkeaulotteisille aineistoille

    No full text
    This thesis discusses Bayesian statistical inference in supervised learning problems where the data are scarce but the number of features large. The focus is on two important tasks. The first one is the prediction of some target variable of interest. The other task is feature selection, where the goal is to identify a small subset of features which are relevant for the prediction. A good predictive accuracy is often intrinsically valuable and a means to understanding the data. Feature selection can further help to make the model easier to interpret and reduce future costs if there is a price associated with predicting with many features. Most traditional approaches try to solve both problems at once by formulating an estimation procedure that performs automatic or semiautomatic feature selection as a by-product of the predictive model fitting. This thesis argues that in many cases one can benefit from a decision theoretically justified two-stage approach. In this approach, one first constructs a model that predicts well but possibly uses many features. In the second stage, one then finds a minimal subset of features that can characterize the predictions of this model. The basic idea of this so called projective framework has been around for a long time but it has largely been overlooked in the statistics and machine learning community. This approach offers plenty of freedom for building an accurate prediction model as one does not need to care about feature selection at this point, and it turns out solving the feature selection problem often becomes substantially easier given an accurate prediction model that can be used as a reference. The thesis focuses mostly on generalized linear models. To solve the problem of predictive model construction, the thesis introduces novel methods for encoding prior information about sparsity and regularization into the model. These methods can in some cases help to improve the prediction accuracy and robustify the posterior inference, but they also advance the current theoretical understanding of the fundamental characteristics of some commonly used prior distributions. The thesis explores also computationally efficient dimension reduction techniques that can be used as shortcuts for predictive model construction when the number of features is very large. Furthermore, the thesis develops the existing projective feature selection method further so as to make the computation fast and accurate for large number of features. Finally, the thesis takes the initial steps towards extending this framework to nonlinear and nonparametric Gaussian process models. The contributions of this thesis are solely methodological, but the benefits of the proposed methods are illustrated using example datasets from various fields, in particular from computational genetics.Tämä väitöskirja käsittelee bayesilaista tilastollista päättelyä ohjatuissa oppimistehtävissä, joissa havaintoja on niukasti, mutta piirteiden määrä on suuri. Työssä keskitytään kahteen osaongelmaan. Ensimmäinen näistä on jonkin mielenkiinnon kohteena olevan muuttujan ennustaminen. Toinen ongelma on piirrevalinta, jossa tarkoituksena on löytää vain pieni joukko piirteitä, jotka ovat merkityksellisiä ennusteiden kannalta. Monissa tapauksissa hyvä ennustetarkkuus voi olla arvokasta sinällään ja usein auttaa ymmärtämään havaintoaineistoa. Piirrevalinta voi edelleen parantaa mallin tulkittavuutta ja selitettävyyttä, mutta sillä voidaan saavuttaa myös säästöjä, mikäli suuren piirremäärän käyttöön liittyy kustannuksia. Valtaosa aiemmin ehdotetuista menetelmistä pyrkii ratkaisemaan molemmat ongelmat samanaikaisesti käyttäen estimointimenetelmää, jossa piirrevalinta saadaan varsinaisen ennustemallin sovittamisen sivutuotteena täysin tai lähes automaattisesti. Tässä työssä esitetään, että monissa tapauksissa voidaan päästä parempaan lopputulokseen, mikäli noudatetaan päätösteoreettisesti perusteltua kaksivaiheista lähestymistapaa. Tässä lähestymistavassa muodostetaan ensin malli, joka ennustaa hyvin, mutta joka mahdollisesti käyttää isoa määrää piirteitä. Piirrevalinta suoritetaan tämän jälkeen etsimällä pienin mahdollinen joukko piirteitä, joilla saavutetaan olennaisesti samanlaiset ennusteet kuin alkuperäisellä mallilla. Tätä niin kutsuttua projektiivista lähetysmistapaa on ehdotettu kirjallisuudessa jo kauan sitten, mutta menetelmä ei ole saanut ansaitsemaansa huomiota. Tämä menetelmä antaa paljon vapauksia ennustemallin rakentamiseen, koska mallintajan ei tässä vaiheessa tarvitse välittää piirrevalinnasta. Toisaalta piirrevalinta usein helpottuu huomattavasti, mikäli tässä vaiheessa voidaan hyödyntää aiemmin sovitettua tarkkaa ennustemallia ja käyttää tätä referenssinä. Työssä keskitytään pääasiassa yleistettyihin lineaarimalleihin. Ennusteongelman ratkaisemiseksi työssä esitetään uusia menetelmiä harvuutta ja regularisointia koskevan priori-informaation sisällyttämiseksi ennustemalliin. Näillä menetelmillä voidaan joissakin tapauksissa parantaa mallin ennustekykyä ja tehdä mallin posteriori-laskennasta robustimpaa. Nämä tekniikat tuovat myös lisää teoreettista ymmärrystä eräiden usein käytettyjen priorijakaumien ominaisuuksista. Työssä tutkitaan myös laskennallisesti tehokkaita dimension redusointitekniikoita nopeuttamaan ennustemallin sovitusta havaintoaineistoissa, joissa piirteitä on hyvin paljon. Lisäksi työssä ehdotetaan alkuperäiseen projektiiviseen piirrevalintamenetelmään useita metodologisia parannuksia, joilla laskenta saadaan nopeaksi ja tarkaksi aineistoille, joissa piirteiden määrä on hyvin suuri. Työssä tutkitaan alustavasti myös, kuinka projektiivinen muuttujavalinta voidaan toteuttaa epälineaarisille ja ei-parametrisille malleille kuten gaussisille prosesseille. Väitöskirjan kontribuutiot ovat täysin metodologisia, mutta esitettyjen tekniikoiden etuja havainnollistetaan esimerkkiaineistoilla useilta sovellusaloilta, erityisesti laskennallisesta genetiikasta

    On the hyperprior choice for the global shrinkage parameter in the horseshoe prior

    No full text
    The horseshoe prior has proven to be a noteworthy alternative for sparse Bayesian estimation, but as shown in this paper, the results can be sensitive to the prior choice for the global shrinkage hyperparameter. We argue that the previous default choices are dubious due to their tendency to favor solutions with more unshrunk coefficients than we typically expect a priori. This can lead to bad results if this parameter is not strongly identified by data. We derive the relationship between the global parameter and the effective number of nonzeros in the coefficient vector, and show an easy and intuitive way of setting up the prior for the global parameter based on our prior beliefs about the number of nonzero coefficients in the model. The results on real world data show that one can benefit greatly – in terms of improved parameter estimates, prediction accuracy, and reduced computation time – from transforming even a crude guess for the number of nonzero coefficients into the prior for the global parameter using our framework.Peer reviewe
    corecore